スマホで見る方はQRコードを読み込んでください
みなさんには分析にRの関数,“lm”というのを使ってもらっています.授業では,以下の通りに使っています.イメージとしては,グラフを想像してもらって,説明変数は「X軸」,応答変数は「Y軸」をイメージしてもらうとわかりやすいかと思います.
オブジェクト<-lm(応答変数 <- 説明変数, data = データセットの名前)
これについて,回帰分析/t検定の時は以下のコードを使っています.
summary(オブジェクト)
これについて,分散分析の時は以下のコードを使っています.
anova(オブジェクト)
分散分析とは,「3群以上の平均値の差があるかどうか」を比較・分析するための方法です.ここでは「1元配置分散分析」および「2元配置分散分析」というものについて説明します.いずれについても,説明変数が因子データ,応答変数が数値(順序)データとなります.
分散分析を一般線形モデルの枠組みで説明すると,以下のように理解することができます.ここでは,「3つの群の影響を受ける」場合について,モデル式を元に説明したいと思います.
\[ Y_i=\beta_1 X_1 +\beta_2 X_2 + \alpha+\epsilon_i \]
このモデルでは,$ X_1 $と $ X_2 $ はそれぞれ(1, 0)の値を取る「ダミー変数」です.しかし,これでは$ $ が2つしかありません.しかし,これだけで3つの群を表すことができます.以下には3つの条件についてモデル式を書き入れてあげたいと思います.
このモデルについて,平均値が異なるかどうかを調べます.特に,分散分析の場合は「分散分析表」と呼ばれるものを出して評価してあげます.
さて,それでは仮説を立ててみましょう.今回分析するテーマは「主観的幸福度(SUB_HAP)が地域(SUB_ARE)によって異なる」かどうかを分析します.一要因分散分析の場合は以下のような仮説を立てます.
この2つの仮説のもとに分析を行ないます.
今回の分析には,以下のモデルを前提とします. \[(主観的幸福度)=\beta_1 (北海道ダミー) +\beta_2 (東北ダミー) +\beta_3 (中部ダミー)+\beta_4 (近畿ダミー) +\beta_5 (中国ダミー)+\beta_6 (四国ダミー)+\beta_7 (九州ダミー) + \alpha+\epsilon_i \]
なお,このモデルではそれぞれの値は1か0の値しか取りません.
例えば,東北地方のデータである場合には,東北ダミーが1,それ以外のダミー変数は0を取ります.また,すべてのダミー変数が0の場合はコントロール群となる関東地方を示しています.
さて,例によってggplotguiを使いましょう.
以下のコードはConsole(コンソール)に直接打ち込みます.
library(ggplotgui)
ggplot_shiny()
そうすると新しいウィンドウが開きます.
以下の通りの作業をしましょう.
# You need the following package(s):
library("ggplot2")
# The code below will generate the graph:
graph <- ggplot(exdataset, aes(x = ARE, y = SUB_HAP)) +
geom_point(stat = 'summary', fun.y = 'mean') +
geom_errorbar(stat = 'summary', fun.data = 'mean_se',
width=0, fun.args = list(mult = 1.96)) +
theme_bw()そうすると,こんなグラフが算出されます.
このグラフを見る限り,地域ごとに差があるかどうかはわかりません.以前,平均値を算出してみたことがありましたが,今回はそれぞれが「統計的に差がある」ということが言えるかどうかを考えたいと思います. %分散分析表の読み方をもう少し説明する.
さて,分散分析をしてみましょう.
arehap_model<-lm(SUB_HAP ~ ARE, data = exdataset)#"hapsat_model"というオブジェクトに,分析モデルを代入する.
anova(arehap_model)#分散分析表Analysis of Variance Table
Response: SUB_HAP
Df Sum Sq Mean Sq F value Pr(>F)
ARE 7 75.1 10.7238 1.9623 0.05729 .
Residuals 955 5218.9 5.4648
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Call:
aov(formula = arehap_model)
Terms:
ARE Residuals
Sum of Squares 75.066 5218.929
Deg. of Freedom 7 955
Residual standard error: 2.337701
Estimated effects may be unbalanced
Df Sum Sq Mean Sq F value Pr(>F)
ARE 7 75 10.724 1.962 0.0573 .
Residuals 955 5219 5.465
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Call:
lm(formula = SUB_HAP ~ ARE, data = exdataset)
Residuals:
Min 1Q Median 3Q Max
-6.5429 -1.4308 0.1515 1.9043 4.7813
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.095745 0.120558 50.563 < 2e-16 ***
AREHokkaido 0.447112 0.413125 1.082 0.27941
ARETohoku -0.876995 0.316105 -2.774 0.00564 **
AREChubu -0.237637 0.226845 -1.048 0.29510
AREKinki -0.247260 0.218299 -1.133 0.25764
AREChugoku 0.335025 0.314020 1.067 0.28629
AREShikoku 0.293144 0.564036 0.520 0.60338
AREKyushu -0.008788 0.271909 -0.032 0.97422
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.338 on 955 degrees of freedom
Multiple R-squared: 0.01418, Adjusted R-squared: 0.006954
F-statistic: 1.962 on 7 and 955 DF, p-value: 0.05729
この分散分析表の結果より以下のように結果を導き出すことが出来ます.
主観的幸福度は地域によって異なるかを分析した.その結果,F(7, 955)=1.9623(p< .10)であり,有意傾向にあることが示されている.したがって,主観的幸福度は居住地域によって異なる傾向にあることが示されている(モデル式の結果を入れてあげると良いでしょう).
さらに,モデル式による分析結果を出力しました.この結果が示しているのは以下のようなことです.
\[ (主観的幸福度)=0.447112*北海道-0.876995*東北 \] \[ -0.237637*中部-0.247260*近畿 \] \[ +0.335025*中国+0.293144*四国 \] \[ -0.008788*九州+6.095745 + \epsilon_i \]
分散分析表とは,分散分析の結果を示すものです."Df"は自由度を示しています. "Sum Sq"は平方和であり,"Mean Sq"は平均平方,"F value"はF値であり, "Pr(|F| )"はp値を示しています.ここでは細かい読み方については説明しませんので,様々な本を参考にしていただければ幸いです.
結果を文章にして書くのであれば,このように書けます.
今度はモデル式についても同じように出力してあげましょう.回帰分析やt検定と同じです.
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 6.096 | 0.1206 | 50.56 | 2.84e-272 |
| AREHokkaido | 0.4471 | 0.4131 | 1.082 | 0.2794 |
| ARETohoku | -0.877 | 0.3161 | -2.774 | 0.005639 |
| AREChubu | -0.2376 | 0.2268 | -1.048 | 0.2951 |
| AREKinki | -0.2473 | 0.2183 | -1.133 | 0.2576 |
| AREChugoku | 0.335 | 0.314 | 1.067 | 0.2863 |
| AREShikoku | 0.2931 | 0.564 | 0.5197 | 0.6034 |
| AREKyushu | -0.008788 | 0.2719 | -0.03232 | 0.9742 |
| Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
|---|---|---|---|---|---|
| ARE | 7 | 75.07 | 10.72 | 1.962 | 0.05729 |
| Residuals | 955 | 5219 | 5.465 | NA | NA |
| (1) | |
| (Intercept) | 6.096 *** |
| (0.121) | |
| AREHokkaido | 0.447 |
| (0.413) | |
| ARETohoku | -0.877 ** |
| (0.316) | |
| AREChubu | -0.238 |
| (0.227) | |
| AREKinki | -0.247 |
| (0.218) | |
| AREChugoku | 0.335 |
| (0.314) | |
| AREShikoku | 0.293 |
| (0.564) | |
| AREKyushu | -0.009 |
| (0.272) | |
| N | 963 |
| R2 | 0.014 |
| logLik | -2180.170 |
| AIC | 4378.340 |
| *** p < 0.001; ** p < 0.01; * p < 0.05. | |
library(stargazer)
stargazer(arehap_model, type = "html", align=TRUE, title = "分析結果", out = "marhap_model.xls")
<table style="text-align:center"><caption><strong>分析結果</strong></caption>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"></td><td><em>Dependent variable:</em></td></tr>
<tr><td></td><td colspan="1" style="border-bottom: 1px solid black"></td></tr>
<tr><td style="text-align:left"></td><td>SUB_HAP</td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">AREHokkaido</td><td>0.447</td></tr>
<tr><td style="text-align:left"></td><td>(0.413)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td style="text-align:left">ARETohoku</td><td>-0.877<sup>***</sup></td></tr>
<tr><td style="text-align:left"></td><td>(0.316)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td style="text-align:left">AREChubu</td><td>-0.238</td></tr>
<tr><td style="text-align:left"></td><td>(0.227)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td style="text-align:left">AREKinki</td><td>-0.247</td></tr>
<tr><td style="text-align:left"></td><td>(0.218)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td style="text-align:left">AREChugoku</td><td>0.335</td></tr>
<tr><td style="text-align:left"></td><td>(0.314)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td style="text-align:left">AREShikoku</td><td>0.293</td></tr>
<tr><td style="text-align:left"></td><td>(0.564)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td style="text-align:left">AREKyushu</td><td>-0.009</td></tr>
<tr><td style="text-align:left"></td><td>(0.272)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td style="text-align:left">Constant</td><td>6.096<sup>***</sup></td></tr>
<tr><td style="text-align:left"></td><td>(0.121)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">Observations</td><td>963</td></tr>
<tr><td style="text-align:left">R<sup>2</sup></td><td>0.014</td></tr>
<tr><td style="text-align:left">Adjusted R<sup>2</sup></td><td>0.007</td></tr>
<tr><td style="text-align:left">Residual Std. Error</td><td>2.338 (df = 955)</td></tr>
<tr><td style="text-align:left">F Statistic</td><td>1.962<sup>*</sup> (df = 7; 955)</td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"><em>Note:</em></td><td style="text-align:right"><sup>*</sup>p<0.1; <sup>**</sup>p<0.05; <sup>***</sup>p<0.01</td></tr>
</table>
分散分析ではある要因によって,ある結果が異なる(ex.地域によって主観的幸福度が異なる)ことはわかりますが,その要因の各因子の間に差があるのかどうか(ex.関東地方と近畿地方で主観的幸福度が異なる)まではわかりません.
この時,t検定を各要因間で繰り返せば...とも思われるかもしれませんが,複数回の仮説検定を行うことは有意水準を水増しすることにつながると言われています.すなわち,帰無仮説が正しい仮説であり採択しなければならない時に,棄却することにつながってしまいます.
そのような事態を避けるために,いくつかの修正案があります.古くには「ボンフェローニの修正」と言われている手法があります.これは比較を行う回数で有意水準を割る,ということを行ないます.例えば,t検定を20回行う場合には,5%水準を前提とすると5/20=0.0025%として評価するものです.しかし,これはあまりに対立仮説に厳しいものであるために,最近ではあまり使われていません.
一方,昨今では「ホルム法」という手法が比較的多く使われています.これはp値の水準が各要因によって異なる基準を適用するものです.最初に,N個の仮説を,p値を小さい順番に並べた上で,一番小さいものの有意水準をNで割ります.これで対立仮説を判断します.対立仮説がここで支持されるのであれば,問題ありません.しかし,帰無仮説が採択されるのであれば,第二順位の対立仮説をの有意水準を(N-1)で割ります...を繰り返します.
この授業では多重比較の枠組みについては「ウィリアムの方法」というのを採用します.これは一つのコントロール群があった上で,その他の要因との差異があるかどうかを検証する枠組みです.例えば,コントロール群となる関東地方に比べて,他の地方の主観的幸福度が高いか低いか,を明らかにすることができます.これは実は皆さんにアウトプットしてもらったモデル式の表から検討することが出来ます.
# install.packages("multcomp", dependencies=T)
library(multcomp)
# install.packages("mixlm", dependencies=T)
library(mixlm)Bonferroni: なかなか良い関数がない&どうやら手で計算したほうが良いらしいので省略.
Simultaneous Tests for General Linear Hypotheses
Multiple Comparisons of Means: Tukey Contrasts
Fit: lm(formula = SUB_HAP ~ ARE, data = exdataset)
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
Hokkaido - Kanto == 0 0.447112 0.413125 1.082 0.9541
Tohoku - Kanto == 0 -0.876995 0.316105 -2.774 0.0907 .
Chubu - Kanto == 0 -0.237637 0.226845 -1.048 0.9615
Kinki - Kanto == 0 -0.247260 0.218299 -1.133 0.9418
Chugoku - Kanto == 0 0.335025 0.314020 1.067 0.9575
Shikoku - Kanto == 0 0.293144 0.564036 0.520 0.9995
Kyushu - Kanto == 0 -0.008788 0.271909 -0.032 1.0000
Tohoku - Hokkaido == 0 -1.324107 0.491454 -2.694 0.1115
Chubu - Hokkaido == 0 -0.684749 0.439390 -1.558 0.7511
Kinki - Hokkaido == 0 -0.694372 0.435039 -1.596 0.7275
Chugoku - Hokkaido == 0 -0.112088 0.490115 -0.229 1.0000
Shikoku - Hokkaido == 0 -0.153968 0.678042 -0.227 1.0000
Kyushu - Hokkaido == 0 -0.455901 0.464262 -0.982 0.9730
Chubu - Tohoku == 0 0.639358 0.349733 1.828 0.5702
Kinki - Tohoku == 0 0.629735 0.344251 1.829 0.5694
Chugoku - Tohoku == 0 1.212019 0.411659 2.944 0.0570 .
Shikoku - Tohoku == 0 1.170139 0.623691 1.876 0.5363
Kyushu - Tohoku == 0 0.868207 0.380511 2.282 0.2785
Kinki - Chubu == 0 -0.009623 0.264660 -0.036 1.0000
Chugoku - Chubu == 0 0.572661 0.347849 1.646 0.6951
Shikoku - Chubu == 0 0.530781 0.583547 0.910 0.9825
Kyushu - Chubu == 0 0.228848 0.310363 0.737 0.9950
Chugoku - Kinki == 0 0.582284 0.342337 1.701 0.6585
Shikoku - Kinki == 0 0.540404 0.580278 0.931 0.9800
Kyushu - Kinki == 0 0.238472 0.304172 0.784 0.9928
Shikoku - Chugoku == 0 -0.041880 0.622637 -0.067 1.0000
Kyushu - Chugoku == 0 -0.343813 0.378781 -0.908 0.9828
Kyushu - Shikoku == 0 -0.301932 0.602497 -0.501 0.9996
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Adjusted p values reported -- single-step method)
Simultaneous Tests for General Linear Hypotheses
Multiple Comparisons of Means: Dunnett Contrasts
Fit: lm(formula = SUB_HAP ~ ARE, data = exdataset)
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
Hokkaido - Kanto == 0 0.447112 0.413125 1.082 0.8878
Tohoku - Kanto == 0 -0.876995 0.316105 -2.774 0.0381 *
Chubu - Kanto == 0 -0.237637 0.226845 -1.048 0.9033
Kinki - Kanto == 0 -0.247260 0.218299 -1.133 0.8628
Chugoku - Kanto == 0 0.335025 0.314020 1.067 0.8948
Shikoku - Kanto == 0 0.293144 0.564036 0.520 0.9981
Kyushu - Kanto == 0 -0.008788 0.271909 -0.032 1.0000
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Adjusted p values reported -- single-step method)
Simultaneous Tests for General Linear Hypotheses
Multiple Comparisons of Means: Williams Contrasts
Fit: lm(formula = SUB_HAP ~ ARE, data = exdataset)
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
C 1 == 0 -0.008788 0.271909 -0.032 1.000
C 2 == 0 0.040619 0.253406 0.160 1.000
C 3 == 0 0.149970 0.213920 0.701 0.842
C 4 == 0 -0.042804 0.174949 -0.245 0.998
C 5 == 0 -0.101892 0.160414 -0.635 0.881
C 6 == 0 -0.191759 0.156315 -1.227 0.478
C 7 == 0 -0.153666 0.154415 -0.995 0.638
(Adjusted p values reported -- single-step method)
続いて,2要因分散分析に進みたいと思います.2要因分散分析とは,複数の要因による影響を分析するものです.例えば,主観的幸福度は子の有無(1,0のダミー変数)だけでなく,結婚しているか否か(1, 0のダミー変数)によっても影響を受ける可能性があります.これを用いると「子がいない未婚者」「子がいない既婚者」「子がいる未婚者」「子がいる既婚者」の計4つの状態があります.
したがって,これらが影響を与えているかどうかを明らかにするために,いずれの要因についても投入したモデル式について考えたいと思います.ここでは,次のようなモデル式を考えたいと思います.
\[Y_i=\beta_1 X_1 +\beta_2 X_2 +\beta_3 X_1* X_2 + \alpha+\epsilon_i \]
このモデル式によって,「4つの状態」を分析することができます.一度整理してみましょう.
\(X_1 =1とX_2 =1\)の場合
\[Y_i= \beta_1 X_1 +\beta_2 X_2 +\beta_3 X_1* X_2 + \alpha+\epsilon_i \]
「組み合わさることにより効果が変化する」ことを「交互作用」といいます.
ex.子がいない未婚者よりも,子がいる既婚者の方が幸せ
さて,それでは仮説を立ててみましょう.今回分析するテーマは「主観的幸福度(SUB_HAP)が子の有無(CHI)と結婚(MAR)によって異なる」かどうかを分析します.二要因分散分析(交互作用有り)の場合は以下のような仮説を立てます.
* 対立仮説:主観的幸福度の平均値は結婚かつ子の有無によって異なる.
* 帰無仮説:主観的幸福度の平均値は結婚かつ子の有無によって異なるとは言えない.
この6つの仮説のもとに分析を行ないます.
あるデータを因子水準に変える場合はas.factor()という関数を使います.ここでは試しに,性別を因子水準に変えてみましょう.
"MAR"結婚をしているかしていないかに関するデータであるが,数字データのままである.これを因子データにしたい.
さて,最初のお約束です.平均値をプロットしましょう. まずは各自でやってみましょう.
さて,例によってggplotguiを使いましょう.
以下のコードはConsole(コンソール)に直接打ち込みます.
library(ggplotgui)
ggplot_shiny(exdataset)
そうすると新しいウィンドウが開きます.
以下の通りの作業をしましょう.
このグラフを見る限り,未婚者に比べて既婚者の方が主観的幸福度が高そうですが,子の有無の影響はわかりません.したがって,この点についても統計的に差があるのかどうかを明らかにしましょう.
| Df | Sum Sq | Mean Sq | F value | Pr(>F) |
| 1 | 591 | 591 | 121 | 1.62e-26 |
| 1 | 5.93 | 5.93 | 1.21 | 0.272 |
| 1 | 1.69 | 1.69 | 0.345 | 0.557 |
| 959 | 4.7e+03 | 4.9 |
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 6.096 | 0.1206 | 50.56 | 2.84e-272 |
| AREHokkaido | 0.4471 | 0.4131 | 1.082 | 0.2794 |
| ARETohoku | -0.877 | 0.3161 | -2.774 | 0.005639 |
| AREChubu | -0.2376 | 0.2268 | -1.048 | 0.2951 |
| AREKinki | -0.2473 | 0.2183 | -1.133 | 0.2576 |
| AREChugoku | 0.335 | 0.314 | 1.067 | 0.2863 |
| AREShikoku | 0.2931 | 0.564 | 0.5197 | 0.6034 |
| AREKyushu | -0.008788 | 0.2719 | -0.03232 | 0.9742 |
| Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
|---|---|---|---|---|---|
| MAR | 1 | 590.7 | 590.7 | 120.6 | 1.622e-26 |
| CHI | 1 | 5.926 | 5.926 | 1.21 | 0.2716 |
| MAR:CHI | 1 | 1.688 | 1.688 | 0.3448 | 0.5572 |
| Residuals | 959 | 4696 | 4.896 | NA | NA |
| (1) | |
| (Intercept) | 5.905 *** |
| (0.098) | |
| MAR(NotMarried) | -0.714 *** |
| (0.098) | |
| CHI(NoChild) | -0.122 |
| (0.098) | |
| MAR(NotMarried):CHI(NoChild) | -0.058 |
| (0.098) | |
| N | 963 |
| R2 | 0.113 |
| logLik | -2129.304 |
| AIC | 4268.608 |
| *** p < 0.001; ** p < 0.01; * p < 0.05. | |
library(coefplot)
# インストールした覚えがない場合は`install.packages("coefplot")`をしておきましょう.
coefplot(marchihap_model)library(stargazer)
stargazer(marchihap_model, type = "html", align=TRUE, title = "分析結果", out = "marchihap_model.xls")
<table style="text-align:center"><caption><strong>分析結果</strong></caption>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"></td><td><em>Dependent variable:</em></td></tr>
<tr><td></td><td colspan="1" style="border-bottom: 1px solid black"></td></tr>
<tr><td style="text-align:left"></td><td>SUB_HAP</td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">MAR(NotMarried)</td><td>-0.714<sup>***</sup></td></tr>
<tr><td style="text-align:left"></td><td>(0.098)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td style="text-align:left">CHI(NoChild)</td><td>-0.122</td></tr>
<tr><td style="text-align:left"></td><td>(0.098)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td style="text-align:left">MAR(NotMarried):CHI(NoChild)</td><td>-0.058</td></tr>
<tr><td style="text-align:left"></td><td>(0.098)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td style="text-align:left">Constant</td><td>5.905<sup>***</sup></td></tr>
<tr><td style="text-align:left"></td><td>(0.098)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">Observations</td><td>963</td></tr>
<tr><td style="text-align:left">R<sup>2</sup></td><td>0.113</td></tr>
<tr><td style="text-align:left">Adjusted R<sup>2</sup></td><td>0.110</td></tr>
<tr><td style="text-align:left">Residual Std. Error</td><td>2.213 (df = 959)</td></tr>
<tr><td style="text-align:left">F Statistic</td><td>40.728<sup>***</sup> (df = 3; 959)</td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"><em>Note:</em></td><td style="text-align:right"><sup>*</sup>p<0.1; <sup>**</sup>p<0.05; <sup>***</sup>p<0.01</td></tr>
</table>
この分散分析表の結果より以下のように結果を導き出すことが出来ます. 交互作用のある分散分析により,主観的幸福度は結婚および子の有無によって異なるかを分析した.その結果,結婚についてはF(1, 959)=120.63(p< .001)であり,結婚が主観的幸福度に対して有意に影響を与えていることが明らかとなった.一方,子の有無についてはF(1, 959)=1.2102(p> .05),結婚と子の有無の交互作用についてはF(1, 959)=0.3448(p> .05)であり,有意差は認められなかった.
この結果は以下のように解釈することが出来ます.
\[(主観的幸福度)=1.543(結婚)+0.359(子ども)-0.231(結婚×子ども)+5.012\]
ただし,以下のように変数を割り振っています. 結婚:未婚→0,既婚→1
子ども:子なし→0,子あり→1
したがって,「未婚者かつ子なし」「未婚者かつ子あり」「既婚者かつ子なし」「既婚者かつ子あり」という4つのありえる状態について,次のように主観的幸福度を推定することが出来ます.
*「未婚者かつ子なし」 \[(主観的幸福度)=1.543×0+0.359×0-0.231(0×0)+5.012\] \[(主観的幸福度)=5.012\]
「未婚者かつ子あり」 \[(主観的幸福度)=1.543×0+0.359×1-0.231(0×1)+5.012\] \[(主観的幸福度)=0.359×1+5.012=5.371\]
「既婚者かつ子なし」 \[(主観的幸福度)=1.543×1+0.359×0-0.231(1×0)+5.012\] \[(主観的幸福度)=1.543×1+5.012=6.555\]
「既婚者かつ子あり」 \[(主観的幸福度)=1.543×1+0.359×1-0.231(1×1)+5.012\] \[(主観的幸福度)=1.543×1+0.359×1-0.231(1×1)+5.012=6.683\]
ここから,未婚者に比べて既婚者の主観的幸福度が高いことはわかりますが,子の有無は主観的幸福度に対して影響をどうも与えなそうです.
オブジェクト<-lm(応答変数 <- 説明変数, data = データセットの名前)
これについて,回帰分析/t検定の時は以下のコードを使っています.
summary(オブジェクト)
これについて,分散分析の時は以下のコードを使っています.
anova(オブジェクト)
"SUB_HAP"は主観的幸福度,"SUB_SAT"は生活満足度,"SUB_SLP"は睡眠満足度に関するデータであった(各10点尺度).これらを応答変数,性別を表す"F_SEX"及び結婚を示す"MAR"(0:未婚,1:既婚)を説明変数として,以下の3つの「交互作用あり」の分析を実施せよ.それぞれについてグラフ,分散分析表とモデルの結果を出力すること.
#演習問題2
応用:もし,可能であればこちらについても挑戦すること.子の有無は“CHI”(0:子なし,1:子あり)で示されている.
ダウンロードはコチラから
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 主観的幸福度 | SUB_HAP | 現在,あなたはどの程度幸せですか?「とても幸せ」を10点,「とても不幸せ」を0点とすると,何点くらいになると思いますか?* | 0点「とても不幸せ」-10点「とても幸せ」 |
| 生活満足度 | SUB_SAT | あなたは全体として最近の生活にどの程度満足していますか?「とても満足」を10点,「とても不満足」を0点とすると,何点くらいになると思いますか? | 0点「とても不満足」-10点「とても満足」 |
| 生活満足度 | SUB_SLP | あなたは最近,どの程度眠れていますか?「とても眠れている」を10点,「全く眠れていない」を0点とすると,何点くらいになると思いますか? | 0点「全く眠れていない」-10点「とても眠れている」 |
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんに何ポイントかを渡すことができます.
さて,あなたはBさんに何ポイント渡しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 主観的幸福度 | DIC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| DG友人条件 | DIC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| DG他者条件 | DIC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんとポイントを分け合うことになりました.
あなたは,Bさんに対して分け合うポイントを提案することができます.
あなたは,10ポイントの中から,Bさんに対して分けたポイントを引いた残りを受け取ることができます.
しかし,Bさんがあなたの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,あなたはBさんに何ポイント渡すことを提案しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 最終提案提案者両親条件 | ULT_PRO_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案提案者友人条件 | ULT_PRO_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案提案者他者条件 | ULT_PRO_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
図を見て下さい. あなたはBさんです. AさんはTポイントを10ポイントを受け取りました.
Aさんが,あなたに対して分け合うポイントを提案します.
Aさんは,10ポイントの中から,あなたに対して分けたポイントを引いた残りを受け取ることができます.
しかし,あなたがAさんの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,最低でも何ポイントの提案を受けたら,Aさんの提案を受け入れますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 最終提案応答者両親条件 | ULT_REC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案応答者友人条件 | ULT_REC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案応答者他者条件 | ULT_REC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイント持っています.
いくらかをCさんにあずけてください. CさんはあなたからあずかったTポイントを3倍にしてBさんに渡します.
Bさんは手元に渡されたポイントのうち,いくらかをあなたに返します.
この時,あなたはCさんにいくらあずけますか?
ここではBさんが以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 信頼両親条件 | TRU_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 信頼友人条件 | TRU_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 信頼他者条件 | TRU_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 自然運命 | SPN_UNM | 何かの大きな力に自分の運命は動かされているように感じることがある. | 1全くそう思わない-4非常にそう思う |
| 自然感謝 | SPN_THK | 自然などの人間を超えた力に感謝の気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然恐怖 | SPN_FEA | 自然などの人間を超えた力に恐れの気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然生存 | SPN_LIV | 自然などの人間を超えた力によって,生かされていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | SPN_IMP | 自然は大切な存在である. | 1全くそう思わない-4非常にそう思う |
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 第2者被監視感 | KAN_SEC | 日常生活の中で,直接誰か(人間)に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第3者被監視感 | KAN_THI | 日常生活の中で,監視カメラ等を通じて誰か(人間)に間接的に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 超自然的被監視感 | KAN_SUP | 日常生活の中で,超自然的な存在に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第2者被監視感 | KAN_PRD | 無機物の中に,人間の表情のようなものを見出すことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | KAN_KYK | 人に対して共感をすることがある. | 1全くそう思わない-4非常にそう思う |
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 死後世界 | DED_SHI | 「死後の世界」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天国 | DED_TEN | 「天国」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 地獄 | DED_JIG | 「地獄」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 奇跡 | DED_KIS | 「奇跡」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天罰 | DED_PUN | 「天罰」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
以下の質問についてお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 性衝動 | SEX_IMP,SEX_IMP_num(数値,欠損値有り) | あなたの性衝動はどの程度強いと思いますか?7点満点でお答え下さい.なお,答えたくない方は「8.答えたくない」を選んで下さい. | 全く弱い.2. 弱い.3. どちらかと言えば弱い.4. どちらとも言えない.5. どちらかと言えば強い.6. 強い.7. 非常に強い.8. 答えたくない. |
| 自慰回数 | SEX_MAS,SEX_MAS_nen(年間回数): | あなたはどの程度の頻度でマスターベーションをしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性交渉回数 | SEX_SEX,SEX_SEX_nen(年間回数) | あなたはどの程度の頻度で性交渉(性行為)をしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性衝動対象 | SEX_OBJ | あなたの性衝動の対象として当てはまる選択肢を選んで下さい.なお,答えたくない方は「5.答えたくない」を選んで下さい. | 1.異性, 2. 同性,3. 両方,4. その他,5. 答えたくない |
| 天罰 | SEX_NIN,SEX_NIN_cen(中央値) | あなたが性交渉(性行為)をしたことがある人数を教えて下さい.* 性交渉を(性行為)したことがない場合は「0. 0人」を選んで下さい. また,答えたくない方は「12.答えたくない」を選んで下さい. | 1. 0人 「0」, 2. 1人 「1」, 3. 2〜3人 「2.5」, 4. 4〜5人 「4.5」, 5. 5〜7人 「6」, 6. 8〜10人 「9」, 7. 11〜15人 「13」, 8. 16〜20人 「18」, 9. 21〜30人 「25.5」, 10. 31〜40人 「35.5」, 11. 41〜100人 「70.5」, 12. 101人以上 「101」, 13. 答えたくない.「NA」 |
| 性情報開示 | SEX_NNA | 性情報に対して開示しなかった個数 | 上記5つについて答えたくないを選んだ個数 |
あなたのことについて教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 性別 | F_SEX | あなたの性別を教えて下さい. | 1.男性, 2.女性,3.その他 |
| 世代 | F_GEN | あなたの年齢を教えて下さい. | 1. 10代前半, 2. 10代後半, 3. 20代前半, 4. 20代後半, 5. 30代前半, 6. 30代後半, 7. 40代前半, 8. 40代後半, 9. 50代前半, 10. 50代前半, 11. 60代前半, 12. 60代後半, 13. 70代以降 |
| 最終学歴 | F_FGR | あなたの最終学歴を教えて下さい. | 1. 中学校卒業, 2. 高校中退, 3. 高校卒業, 4. 専門学校(短期大学)中退, 5. 専門学校(短期大学)卒業, 6. 大学中退, 7. 大学卒業, 8. 大学院修士課程(博士前期課程)中退, 9. 大学院修士課程(博士前期課程)修了, 10. 大学院博士課程(博士後期課程)中退, 11. 大学院博士課程(博士後期課程)修了 |
| 個人収入 | F_INK,F_INK_cen(中央値,百万円) | あなた個人の年収を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 世帯収入 | F_INS,F_INS_cen(中央値,百万円) | あなたの世帯での収入の合計を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 回答端末 | F_TAN | あなたが現在回答に使われているケータイ/タブレット/パソコンについて,当てはまるものを選んで下さい. | 1. パソコン(Windows), 2. パソコン(Mac), 3. パソコン(その他), 4. タブレット(Windows), 5. タブレット(iOS,iPad), 6. タブレット(android), 7. タブレット(その他), 8. スマホ(Windows), 9. スマホ(iOS,iPhone), 10. スマホ(android), 11. スマホ(その他), 12. ガラケー,フィーチャーホン, 13. その他 |
| 都道府県 | PRE | あなたのお住まいの県を教えて下さい. | 1. 北海道2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県36. 徳島県37. 香川県38. 愛媛県39. 高知県40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県 |
| 地域 | ARE | 都道府県から地域に変換 | 北海道:1. 北海道,東北地方:2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県,関東地方:8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県,中部地方:15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県,近畿地方:25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県,中国地方:31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県,四国地方:36. 徳島県37. 香川県38. 愛媛県39. 高知県,九州地方:40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県 |
| 未既婚 | MAR | あなたはご結婚されていますか? | NotMarried:未婚,Married:既婚 |
| 子の有無 | CHI | あなたはお子さんがいらっしゃいますか? | NoChild:いない,Child:いる |
---
title: "データ解析論I第11講"
output:
flexdashboard::flex_dashboard:
vertical-layout: scroll
orientation: columns
source_code: embed
theme: journal
toc: true
toc_depth: 2
fig_mobile: true
highlight: pygments
css: styles_customized.css
---
```{r setup, include=FALSE}
library(readr)
library(ggplot2)
library(dplyr)
exdataset <- read_csv("/Users/akira/Dropbox/Education/2019MEIJI/[3_Wed2]Data_Analytics/analysis/data/exdataset.csv")
## Reordering exdataset$ARE
exdataset$ARE <- factor(exdataset$ARE, levels=c("Kanto", "Hokkaido", "Tohoku", "Chubu", "Kinki", "Chugoku", "Shikoku", "Kyushu"))
## Reordering exdataset$MAR
exdataset$MAR <- factor(exdataset$MAR, levels=c("NotMarried", "Married"))
## Reordering exdataset$CHI
exdataset$CHI <- factor(exdataset$CHI, levels=c("NoChild", "Child"))
```
# 講義資料
## メイン資料 {.tabset .tabset-fade}
### 今日の資料はコチラから.
スマホで見る方は**QRコード**を読み込んでください
### 前回の復習
#### 復習
みなさんには分析にRの関数,"lm"というのを使ってもらっています.授業では,以下の通りに使っています.イメージとしては,グラフを想像してもらって,説明変数は「X軸」,応答変数は「Y軸」をイメージしてもらうとわかりやすいかと思います.
```
オブジェクト<-lm(応答変数 <- 説明変数, data = データセットの名前)
これについて,回帰分析/t検定の時は以下のコードを使っています.
summary(オブジェクト)
これについて,分散分析の時は以下のコードを使っています.
anova(オブジェクト)
```
#### 1要因分散分析
##### 分散分析とは
分散分析とは,「3群以上の平均値の差があるかどうか」を比較・分析するための方法です.ここでは「1元配置分散分析」および「2元配置分散分析」というものについて説明します.いずれについても,説明変数が因子データ,応答変数が数値(順序)データとなります.
* 1元配置分散分析:「地域によって,主観的幸福度が異なる」などのような,1つの要因によって影響を受けるかどうかを分析する手法です.
* 2元配置分散分析:「地域と未婚・既婚によって主観的幸福度が異なる」,「地域と子の有無によって主観的幸福度が異なる」などのような,2つの要因によって影響を受けるかどうかを分析する手法です.
分散分析を一般線形モデルの枠組みで説明すると,以下のように理解することができます.ここでは,「3つの群の影響を受ける」場合について,モデル式を元に説明したいと思います.
$$ Y_i=\beta_1 X_1 +\beta_2 X_2 + \alpha+\epsilon_i $$
このモデルでは,$ X_1 $と $ X_2 $ はそれぞれ(1, 0)の値を取る「ダミー変数」です.しかし,これでは$ \beta $ が2つしかありません.しかし,これだけで3つの群を表すことができます.以下には3つの条件についてモデル式を書き入れてあげたいと思います.
* $ X_1 =1 $ と$ X_2 =0 $の場合
$$ Y_i=\beta_1 X_1 + \alpha+\epsilon_i $$
- この場合,ある因子$X_1$ によって,傾きが変化することを示しています.
* $ X_1 =0 とX_2 =1 $の場合
$$ Y_i=\beta_2 X_2 + \alpha+\epsilon_i $
- この場合,ある因子$X_2$ によって,傾きが変化することを示しています.
* $ X_1 =0 とX_2 =0 $の場合
$$ Y_i= \alpha+\epsilon_i $$
- この場合,全ての要因が影響しない場合(何らかの基準となる点)の値を示していることになります.
このモデルについて,平均値が異なるかどうかを調べます.特に,分散分析の場合は「分散分析表」と呼ばれるものを出して評価してあげます.
##### 分散分析の例
* テストの点数がクラスによって異なる.
- $ X_1 =1 $と$ X_2 =0 $:Bクラス
- $ X_1 =0 $と$ X_2 =1 $:Cクラス
- $ X_1 =0 $と$ X_2 =0 $:Aクラス
* このモデル式からわかること:Aクラスに比べてBクラス/Cクラスの得点がどう変化するか
##### 仮説を立てる
さて,それでは仮説を立ててみましょう.今回分析するテーマは「主観的幸福度(SUB_HAP)が地域(SUB_ARE)によって異なる」かどうかを分析します.一要因分散分析の場合は以下のような仮説を立てます.
* 対立仮説:主観的幸福度の平均値は地域によって異なる.
* 帰無仮説:主観的幸福度の平均値は地域によって異なるとは言えない.
この2つの仮説のもとに分析を行ないます.
##### 分析のモデル式
今回の分析には,以下のモデルを前提とします.
$$(主観的幸福度)=\beta_1 (北海道ダミー) +\beta_2 (東北ダミー) +\beta_3 (中部ダミー)+\beta_4 (近畿ダミー) +\beta_5 (中国ダミー)+\beta_6 (四国ダミー)+\beta_7 (九州ダミー) + \alpha+\epsilon_i $$
なお,このモデルではそれぞれの値は1か0の値しか取りません.
例えば,東北地方のデータである場合には,東北ダミーが1,それ以外のダミー変数は0を取ります.また,すべてのダミー変数が0の場合はコントロール群となる関東地方を示しています.
#### 平均値をプロットする
さて,例によってggplotguiを使いましょう.
以下のコードはConsole(コンソール)に直接打ち込みます.
```
library(ggplotgui)
ggplot_shiny()
```
そうすると新しいウィンドウが開きます.
以下の通りの作業をしましょう.
* "*Data upload*"をクリック
* datasetをコピーする
* "*Paste Data*"にペーストをする
* ggplotタブへ
* "*Type of graph:*"は"*Dot + Error*",Y-variableは"*SUB_HAP*",X-variableは"*ARE*"を設定
* "*Confidence Interval:*"を95%にする.
* R-codeタブへ行って,以下のコードのうち,真ん中のみを以下にする.
-また,コード内の*df*を*dataset*に変える.
```{r echo=TRUE}
# You need the following package(s):
library("ggplot2")
# The code below will generate the graph:
graph <- ggplot(exdataset, aes(x = ARE, y = SUB_HAP)) +
geom_point(stat = 'summary', fun.y = 'mean') +
geom_errorbar(stat = 'summary', fun.data = 'mean_se',
width=0, fun.args = list(mult = 1.96)) +
theme_bw()
```
そうすると,こんなグラフが算出されます.
```{r echo=TRUE}
graph
```
このグラフを見る限り,地域ごとに差があるかどうかはわかりません.以前,平均値を算出してみたことがありましたが,今回はそれぞれが「統計的に差がある」ということが言えるかどうかを考えたいと思います.
%分散分析表の読み方をもう少し説明する.
#### 分散分析をやってみる
さて,分散分析をしてみましょう.
```{r echo=TRUE}
arehap_model<-lm(SUB_HAP ~ ARE, data = exdataset)#"hapsat_model"というオブジェクトに,分析モデルを代入する.
anova(arehap_model)#分散分析表
aov(arehap_model) # 原初的な分散分析
summary(aov(arehap_model)) # 分散分析表
summary(arehap_model) #分析結果の要約を出力する
```
この分散分析表の結果より以下のように結果を導き出すことが出来ます.
##### 書き方
主観的幸福度は地域によって異なるかを分析した.その結果,F(7, 955)=1.9623(p< .10)であり,有意傾向にあることが示されている.したがって,主観的幸福度は居住地域によって異なる傾向にあることが示されている(モデル式の結果を入れてあげると良いでしょう).
さらに,モデル式による分析結果を出力しました.この結果が示しているのは以下のようなことです.
$$ (主観的幸福度)=0.447112*北海道-0.876995*東北 $$
$$ -0.237637*中部-0.247260*近畿 $$
$$ +0.335025*中国+0.293144*四国 $$
$$ -0.008788*九州+6.095745 + \epsilon_i $$
#### 分散分析表の読み方
分散分析表とは,分散分析の結果を示すものです."Df"は自由度を示しています. "Sum Sq"は平方和であり,"Mean Sq"は平均平方,"F value"はF値であり, "Pr(|F| )"はp値を示しています.ここでは細かい読み方については説明しませんので,様々な本を参考にしていただければ幸いです.
結果を文章にして書くのであれば,このように書けます.
今度はモデル式についても同じように出力してあげましょう.回帰分析やt検定と同じです.
##### 結果をきれいに表記しよう.
* パッケージpanderの中にある関数panderを使うと,結果がわかりやすく表示されます.
```{r echo=TRUE}
library(pander)
pander(arehap_model)
pander(anova(arehap_model))
```
* 他にもパッケージhuxtableの中にhuxregという関数があります.
```{r echo=TRUE}
library(huxtable)
huxreg(arehap_model)
```
* パッケージcoefplotを使って,各係数の大きさをグラフで示しておこう.
- 特にこれから重回帰分析などを学ぶ上で知っておくと便利です.
```{r echo=TRUE}
library(coefplot)
# インストールした覚えがない場合は`install.packages("coefplot")`をしておきましょう.
coefplot(arehap_model)
```
* パッケージstargazerの中にあるstargazerという関数を使うとxls形式で出力できます.
```{r echo=TRUE}
library(stargazer)
stargazer(arehap_model, type = "html", align=TRUE, title = "分析結果", out = "marhap_model.xls")
```
#### 多重比較
分散分析ではある要因によって,ある結果が異なる(ex.地域によって主観的幸福度が異なる)ことはわかりますが,その要因の各因子の間に差があるのかどうか(ex.関東地方と近畿地方で主観的幸福度が異なる)まではわかりません.
この時,t検定を各要因間で繰り返せば...とも思われるかもしれませんが,複数回の仮説検定を行うことは有意水準を水増しすることにつながると言われています.すなわち,帰無仮説が正しい仮説であり採択しなければならない時に,棄却することにつながってしまいます.
そのような事態を避けるために,いくつかの修正案があります.古くには「ボンフェローニの修正」と言われている手法があります.これは比較を行う回数で有意水準を割る,ということを行ないます.例えば,t検定を20回行う場合には,5%水準を前提とすると5/20=0.0025%として評価するものです.しかし,これはあまりに対立仮説に厳しいものであるために,最近ではあまり使われていません.
一方,昨今では「ホルム法」という手法が比較的多く使われています.これはp値の水準が各要因によって異なる基準を適用するものです.最初に,N個の仮説を,p値を小さい順番に並べた上で,一番小さいものの有意水準をNで割ります.これで対立仮説を判断します.対立仮説がここで支持されるのであれば,問題ありません.しかし,帰無仮説が採択されるのであれば,第二順位の対立仮説をの有意水準を(N-1)で割ります...を繰り返します.
この授業では多重比較の枠組みについては「ウィリアムの方法」というのを採用します.これは一つのコントロール群があった上で,その他の要因との差異があるかどうかを検証する枠組みです.例えば,コントロール群となる関東地方に比べて,他の地方の主観的幸福度が高いか低いか,を明らかにすることができます.これは実は皆さんにアウトプットしてもらったモデル式の表から検討することが出来ます.
#### 多重比較の方法
* はじめに:多重比較を実施するためにはmultcompというパッケージが必要になります.
```{r echo=TRUE}
# install.packages("multcomp", dependencies=T)
library(multcomp)
# install.packages("mixlm", dependencies=T)
library(mixlm)
```
* Bonferroni:
なかなか良い関数がない&どうやら手で計算したほうが良いらしいので省略.
* Tukey
```{r echo=TRUE}
summary(glht(arehap_model, linfct = mcp(ARE="Tukey")))
```
* Dunnet
```{r echo=TRUE}
summary(glht(arehap_model, linfct = mcp(ARE="Dunnet")))
```
* Williams
```{r echo=TRUE}
summary(glht(arehap_model, linfct = mcp(ARE="Williams")))
```
### 今日のタスク
#### 2要因分散分析(交互作用あり)
続いて,2要因分散分析に進みたいと思います.2要因分散分析とは,複数の要因による影響を分析するものです.例えば,主観的幸福度は子の有無(1,0のダミー変数)だけでなく,結婚しているか否か(1, 0のダミー変数)によっても影響を受ける可能性があります.これを用いると「子がいない未婚者」「子がいない既婚者」「子がいる未婚者」「子がいる既婚者」の計4つの状態があります.
したがって,これらが影響を与えているかどうかを明らかにするために,いずれの要因についても投入したモデル式について考えたいと思います.ここでは,次のようなモデル式を考えたいと思います.
$$Y_i=\beta_1 X_1 +\beta_2 X_2 +\beta_3 X_1* X_2 + \alpha+\epsilon_i $$
このモデル式によって,「4つの状態」を分析することができます.一度整理してみましょう.
* $X_1 =1$と$X_2 =0$の場合
$$Y_i=\beta_1 X_1+\alpha+\epsilon_i$$
- この場合,ある因子$X_1$ によって,傾きが変化することを示しています.
- ex.子がいない独身者よりも,子がいる独身者の方が幸せ
* $X_1 =0$と$X_2 =1$の場合
$$ Y_i=\beta_2 X_2 + \alpha+\epsilon_i $$
- この場合,ある因子$X_2$ によって,傾きが変化することを示しています.
- ex.子がいない未婚者よりも,子がいない既婚者の方が幸せ
* $X_1 =1とX_2 =1$の場合
$$Y_i= \beta_1 X_1 +\beta_2 X_2 +\beta_3 X_1* X_2 + \alpha+\epsilon_i $$
- この場合,$X_1$ と$X_2$ が影響する場合の値を示していることになります.特に,$X_1* X_2$ の係数が有意になる場合は単純に$X_1$ と$X_2$ が同じように影響を与えているだけでなく,組み合わさることによって効果が強まることを示しています.
- 「組み合わさることにより効果が変化する」ことを「交互作用」といいます.
- ex.子がいない未婚者よりも,子がいる既婚者の方が幸せ
* $X_1 =0とX_2 =0$の場合
$$ Y_i= \alpha+\epsilon_i $$
- この場合,全ての要因が影響しない場合(何らかの基準となる点)の値を示していることになります.
- ex.子がいない未婚者
#### 仮説を立てる
さて,それでは仮説を立ててみましょう.今回分析するテーマは「主観的幸福度(SUB_HAP)が子の有無(CHI)と結婚(MAR)によって異なる」かどうかを分析します.二要因分散分析(交互作用有り)の場合は以下のような仮説を立てます.
* 対立仮説:主観的幸福度の平均値は結婚かつ子の有無によって異なる.
* 帰無仮説:主観的幸福度の平均値は結婚かつ子の有無によって異なるとは言えない.
この6つの仮説のもとに分析を行ないます.
#### 数値データを因子データに変える.
##### R上で数値データを因子データに変換する方法
あるデータを因子水準に変える場合はas.factor()という関数を使います.ここでは試しに,性別を因子水準に変えてみましょう.
"MAR"結婚をしているかしていないかに関するデータであるが,数字データのままである.これを因子データにしたい.
#### 平均値をプロットする
さて,最初のお約束です.平均値をプロットしましょう.
まずは各自でやってみましょう.
さて,例によってggplotguiを使いましょう.
以下のコードはConsole(コンソール)に直接打ち込みます.
```
library(ggplotgui)
ggplot_shiny(exdataset)
```
そうすると新しいウィンドウが開きます.
以下の通りの作業をしましょう.
* ggplotタブへ
* "*Type of graph:*"は"*Dot + Error*",Y-variableは"*SUB_HAP*",X-variableは"*MAR*"を設定
* "Group(or colour)"を*CHI*に変更
* "*Confidence Interval:*"を95%にする.
* R-codeタブへ行って,以下のコードのうち,真ん中のみを以下にする.
-また,コード内の*df*を*exdataset*に変える.
```{r}
# You need the following package(s):
library("ggplot2")
# The code below will generate the graph:
graph <- ggplot(exdataset, aes(x = MAR, y = SUB_HAP, colour = CHI)) +
geom_point(stat = 'summary', fun.y = 'mean') +
geom_errorbar(stat = 'summary', fun.data = 'mean_se',
width=0, fun.args = list(mult = 1.96)) +
theme_bw()
graph
```
このグラフを見る限り,未婚者に比べて既婚者の方が主観的幸福度が高そうですが,子の有無の影響はわかりません.したがって,この点についても統計的に差があるのかどうかを明らかにしましょう.
```{r}
marchihap_model <-lm(SUB_HAP ~ MAR*CHI, data = exdataset)
#モデル式をMARCHIHAP\_modelというオブジェクトにしまいます.
anova(marchihap_model)#分散分析にはanova()という関数を使います.
```
* パッケージpanderの中にある関数panderを使うと,結果がわかりやすく表示されます.
```{r echo=TRUE}
library(pander)
pander(arehap_model)
pander(anova(marchihap_model))
```
* 他にもパッケージhuxtableの中にhuxregという関数があります.
```{r echo=TRUE}
library(huxtable)
huxreg(marchihap_model)
```
* パッケージcoefplotを使って,各係数の大きさをグラフで示しておこう.
- 特にこれから重回帰分析などを学ぶ上で知っておくと便利です.
```{r echo=TRUE}
library(coefplot)
# インストールした覚えがない場合は`install.packages("coefplot")`をしておきましょう.
coefplot(marchihap_model)
```
* パッケージstargazerの中にあるstargazerという関数を使うとxls形式で出力できます.
```{r echo=TRUE}
library(stargazer)
stargazer(marchihap_model, type = "html", align=TRUE, title = "分析結果", out = "marchihap_model.xls")
```
#### 結果の読み解き方
この分散分析表の結果より以下のように結果を導き出すことが出来ます.
交互作用のある分散分析により,主観的幸福度は結婚および子の有無によって異なるかを分析した.その結果,結婚についてはF(1, 959)=120.63(p< .001)であり,結婚が主観的幸福度に対して有意に影響を与えていることが明らかとなった.一方,子の有無についてはF(1, 959)=1.2102(p> .05),結婚と子の有無の交互作用についてはF(1, 959)=0.3448(p> .05)であり,有意差は認められなかった.
この結果は以下のように解釈することが出来ます.
$$(主観的幸福度)=1.543(結婚)+0.359(子ども)-0.231(結婚×子ども)+5.012$$
ただし,以下のように変数を割り振っています.
結婚:未婚→0,既婚→1
子ども:子なし→0,子あり→1
したがって,「未婚者かつ子なし」「未婚者かつ子あり」「既婚者かつ子なし」「既婚者かつ子あり」という4つのありえる状態について,次のように主観的幸福度を推定することが出来ます.
*「未婚者かつ子なし」
$$(主観的幸福度)=1.543×0+0.359×0-0.231(0×0)+5.012$$
$$(主観的幸福度)=5.012$$
* 「未婚者かつ子あり」
$$(主観的幸福度)=1.543×0+0.359×1-0.231(0×1)+5.012$$
$$(主観的幸福度)=0.359×1+5.012=5.371$$
* 「既婚者かつ子なし」
$$(主観的幸福度)=1.543×1+0.359×0-0.231(1×0)+5.012$$
$$(主観的幸福度)=1.543×1+5.012=6.555$$
* 「既婚者かつ子あり」
$$(主観的幸福度)=1.543×1+0.359×1-0.231(1×1)+5.012$$
$$(主観的幸福度)=1.543×1+0.359×1-0.231(1×1)+5.012=6.683$$
ここから,未婚者に比べて既婚者の主観的幸福度が高いことはわかりますが,子の有無は主観的幸福度に対して影響をどうも与えなそうです.
### 今日のTake Home Messages
#### 分散分析(一般線形モデルによる分散分析モデルによる分析)
* 一般線形モデルによる分散分析モデル
- ダミー変数が複数あるような状況を前提とする.
* 交互作用ありモデル:
- 組み合わせによってパワーパップorパワーダウン...
```
オブジェクト<-lm(応答変数 <- 説明変数, data = データセットの名前)
これについて,回帰分析/t検定の時は以下のコードを使っています.
summary(オブジェクト)
これについて,分散分析の時は以下のコードを使っています.
anova(オブジェクト)
```
### Rでデータを扱う時に注意すべきこと
* 必ず数字/文字は半角で入力する.
* 日本語は使わずにローマ字を使用する.
* コメントアウト(コードではなく,関係ないメモを入れること)をするときは半角の「#」から始める.
- メモする内容は全角でもよい.
* ファイル名およびパスには決して全角の文字(ひらがな,カタカナ,漢字,全角スペースなど)を入れてはいけない.
- 半角英数字だけにする.
* 慌てずに落ち着いて操作すれば,決して難しくない.
- 1つずつ落ち着いて作業することを心がける.
* 「わからない」ことを恐れない
- 周りの友人に聞いたり,教員に確認したりしよう.
* 文字化け対策に**[こちら](https://docs.google.com/document/d/1CYF6LeFeGV9dTWHGuznkO0Tm4RnhAu2KatdSqFn7bmU/edit)** のp8以降を確認して設定しよう.
# 演習問題
## 問題 {.tabset .tabset-fade}
### 問題
#### 演習問題1
"SUB_HAP"は主観的幸福度,"SUB_SAT"は生活満足度,"SUB_SLP"は睡眠満足度に関するデータであった(各10点尺度).これらを応答変数,性別を表す"F_SEX"及び結婚を示す"MAR"(0:未婚,1:既婚)を説明変数として,以下の3つの「交互作用あり」の分析を実施せよ.それぞれについてグラフ,分散分析表とモデルの結果を出力すること.
* 主観的幸福度の性別差(男女その他)および既婚・未婚の影響を分析せよ.
* 生活満足度の性別差(男女その他)および既婚・未婚の影響を分析せよ.
* 睡眠満足度の性別差(男女その他)および既婚・未婚の影響を分析せよ.
#演習問題2
応用:もし,可能であればこちらについても挑戦すること.子の有無は"CHI"(0:子なし,1:子あり)で示されている.
* 主観的幸福度の性別差(男女その他)および既婚・未婚と子の有無の影響を分析せよ.
* 生活満足度の性別差(男女その他)および既婚・未婚と子の有無の影響を分析せよ.
* 睡眠満足度の性別差(男女その他)および既婚・未婚と子の有無の影響を分析せよ.
#### リアクションペーパー:
* 授業で学んだことおよび感想を下記リンクからお答えください.
**[リアクションペーパー](https://forms.gle/jhMGgdhyb3sMgpWm7)**
### ヒント
* パッケージdplyrの関数filterを使います.
* ある列の中にあるデータの名前を個別に指定する時には""(ダブルクォーテーション)で囲います.
```{r}
```
# データの概要
### データ概要
ダウンロードは**[コチラ](https://akrgt.github.io/2019DA/data/exdataset.csv)**から
```{r}
library(DT)
DT::datatable(exdataset)
```
### 変数名リスト
#### 主観的指標
| 項目名 | データタイトル | 質問項目 | 回答 |
| ------------ | -------------- | ------------------------------------------------------------ | ------------------------------------------------ |
| 主観的幸福度 | SUB_HAP | 現在,あなたはどの程度幸せですか?「とても幸せ」を10点,「とても不幸せ」を0点とすると,何点くらいになると思いますか?* | 0点「とても不幸せ」-10点「とても幸せ」 |
| 生活満足度 | SUB_SAT | あなたは全体として最近の生活にどの程度満足していますか?「とても満足」を10点,「とても不満足」を0点とすると,何点くらいになると思いますか? | 0点「とても不満足」-10点「とても満足」 |
| 生活満足度 | SUB_SLP | あなたは最近,どの程度眠れていますか?「とても眠れている」を10点,「全く眠れていない」を0点とすると,何点くらいになると思いますか? | 0点「全く眠れていない」-10点「とても眠れている」 |
#### 独裁者ゲーム
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんに何ポイントかを渡すことができます.
さて,あなたはBさんに何ポイント渡しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ------------ | -------------- | ----------------------------- | -------------------- |
| 主観的幸福度 | DIC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| DG友人条件 | DIC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| DG他者条件 | DIC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 最終提案ゲーム_提案者
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんとポイントを分け合うことになりました.
あなたは,Bさんに対して分け合うポイントを提案することができます.
あなたは,10ポイントの中から,Bさんに対して分けたポイントを引いた残りを受け取ることができます.
しかし,Bさんがあなたの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,あなたはBさんに何ポイント渡すことを提案しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------------------- | -------------- | ----------------------------- | -------------------- |
| 最終提案提案者両親条件 | ULT_PRO_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案提案者友人条件 | ULT_PRO_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案提案者他者条件 | ULT_PRO_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 最終提案ゲーム_応答者
図を見て下さい.
あなたはBさんです. AさんはTポイントを10ポイントを受け取りました.
Aさんが,あなたに対して分け合うポイントを提案します.
Aさんは,10ポイントの中から,あなたに対して分けたポイントを引いた残りを受け取ることができます.
しかし,あなたがAさんの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,最低でも何ポイントの提案を受けたら,Aさんの提案を受け入れますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------------------- | -------------- | ----------------------------- | -------------------- |
| 最終提案応答者両親条件 | ULT_REC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案応答者友人条件 | ULT_REC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案応答者他者条件 | ULT_REC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 信頼ゲーム
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイント持っています.
いくらかをCさんにあずけてください. CさんはあなたからあずかったTポイントを3倍にしてBさんに渡します.
Bさんは手元に渡されたポイントのうち,いくらかをあなたに返します.
この時,あなたはCさんにいくらあずけますか?
ここではBさんが以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ------------ | -------------- | ----------------------------- | -------------------- |
| 信頼両親条件 | TRU_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 信頼友人条件 | TRU_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 信頼他者条件 | TRU_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 自然関連
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| -------- | -------------- | ------------------------------------------------------------ | --------------------------------- |
| 自然運命 | SPN_UNM | 何かの大きな力に自分の運命は動かされているように感じることがある. | 1全くそう思わない-4非常にそう思う |
| 自然感謝 | SPN_THK | 自然などの人間を超えた力に感謝の気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然恐怖 | SPN_FEA | 自然などの人間を超えた力に恐れの気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然生存 | SPN_LIV | 自然などの人間を超えた力によって,生かされていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | SPN_IMP | 自然は大切な存在である. | 1全くそう思わない-4非常にそう思う |
| | | | |
#### 監視
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------------- | -------------- | ------------------------------------------------------------ | --------------------------------- |
| 第2者被監視感 | KAN_SEC | 日常生活の中で,直接誰か(人間)に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第3者被監視感 | KAN_THI | 日常生活の中で,監視カメラ等を通じて誰か(人間)に間接的に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 超自然的被監視感 | KAN_SUP | 日常生活の中で,超自然的な存在に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第2者被監視感 | KAN_PRD | 無機物の中に,人間の表情のようなものを見出すことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | KAN_KYK | 人に対して共感をすることがある. | 1全くそう思わない-4非常にそう思う |
| | | | |
#### 死後
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| -------- | -------------- | -------------------------------------- | --------------------------------- |
| 死後世界 | DED_SHI | 「死後の世界」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天国 | DED_TEN | 「天国」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 地獄 | DED_JIG | 「地獄」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 奇跡 | DED_KIS | 「奇跡」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天罰 | DED_PUN | 「天罰」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| | | | |
#### 性行動
以下の質問についてお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------- | ---------------------------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
| 性衝動 | SEX_IMP,SEX_IMP_num(数値,欠損値有り) | あなたの性衝動はどの程度強いと思いますか?7点満点でお答え下さい.なお,答えたくない方は「8.答えたくない」を選んで下さい. | 全く弱い.2. 弱い.3. どちらかと言えば弱い.4. どちらとも言えない.5. どちらかと言えば強い.6. 強い.7. 非常に強い.8. 答えたくない. |
| 自慰回数 | SEX_MAS,SEX_MAS_nen(年間回数): | あなたはどの程度の頻度でマスターベーションをしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性交渉回数 | SEX_SEX,SEX_SEX_nen(年間回数) | あなたはどの程度の頻度で性交渉(性行為)をしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性衝動対象 | SEX_OBJ | あなたの性衝動の対象として当てはまる選択肢を選んで下さい.なお,答えたくない方は「5.答えたくない」を選んで下さい. | 1.異性, 2. 同性,3. 両方,4. その他,5. 答えたくない |
| 天罰 | SEX_NIN,SEX_NIN_cen(中央値) | あなたが性交渉(性行為)をしたことがある人数を教えて下さい.* 性交渉を(性行為)したことがない場合は「0. 0人」を選んで下さい. また,答えたくない方は「12.答えたくない」を選んで下さい. | 1. 0人 「0」, 2. 1人 「1」, 3. 2〜3人 「2.5」, 4. 4〜5人 「4.5」, 5. 5〜7人 「6」, 6. 8〜10人 「9」, 7. 11〜15人 「13」, 8. 16〜20人 「18」, 9. 21〜30人 「25.5」, 10. 31〜40人 「35.5」, 11. 41〜100人 「70.5」, 12. 101人以上 「101」, 13. 答えたくない.「NA」 |
| 性情報開示 | SEX_NNA | 性情報に対して開示しなかった個数 | 上記5つについて答えたくないを選んだ個数 |
| | | | |
#### フェイスシート
あなたのことについて教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| -------- | -------------------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
| 性別 | F_SEX | あなたの性別を教えて下さい. | 1.男性, 2.女性,3.その他 |
| 世代 | F_GEN | あなたの年齢を教えて下さい. | 1. 10代前半, 2. 10代後半, 3. 20代前半, 4. 20代後半, 5. 30代前半, 6. 30代後半, 7. 40代前半, 8. 40代後半, 9. 50代前半, 10. 50代前半, 11. 60代前半, 12. 60代後半, 13. 70代以降 |
| 最終学歴 | F_FGR | あなたの最終学歴を教えて下さい. | 1. 中学校卒業, 2. 高校中退, 3. 高校卒業, 4. 専門学校(短期大学)中退, 5. 専門学校(短期大学)卒業, 6. 大学中退, 7. 大学卒業, 8. 大学院修士課程(博士前期課程)中退, 9. 大学院修士課程(博士前期課程)修了, 10. 大学院博士課程(博士後期課程)中退, 11. 大学院博士課程(博士後期課程)修了 |
| 個人収入 | F_INK,F_INK_cen(中央値,百万円) | あなた個人の年収を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 世帯収入 | F_INS,F_INS_cen(中央値,百万円) | あなたの世帯での収入の合計を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 回答端末 | F_TAN | あなたが現在回答に使われているケータイ/タブレット/パソコンについて,当てはまるものを選んで下さい. | 1. パソコン(Windows), 2. パソコン(Mac), 3. パソコン(その他), 4. タブレット(Windows), 5. タブレット(iOS,iPad), 6. タブレット(android), 7. タブレット(その他), 8. スマホ(Windows), 9. スマホ(iOS,iPhone), 10. スマホ(android), 11. スマホ(その他), 12. ガラケー,フィーチャーホン, 13. その他 |
| 都道府県 | PRE | あなたのお住まいの県を教えて下さい. | 1. 北海道2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県36. 徳島県37. 香川県38. 愛媛県39. 高知県40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県 |
| 地域 | ARE | 都道府県から地域に変換 | 北海道:1. 北海道,東北地方:2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県,関東地方:8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県,中部地方:15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県,近畿地方:25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県,中国地方:31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県,四国地方:36. 徳島県37. 香川県38. 愛媛県39. 高知県,九州地方:40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県|
| 未既婚 | MAR | あなたはご結婚されていますか? | NotMarried:未婚,Married:既婚 |
| 子の有無 | CHI | あなたはお子さんがいらっしゃいますか? | NoChild:いない,Child:いる |